我们考虑了与视图合成的重大视点变化下的两视图匹配的问题。我们提出了两种新颖的方法,将视图合成开销最小化。第一个名为denseaffnet,使用了affnet的密集仿射形状估计值,它允许其划分图像,仅使用单个仿射图对每个分区进行整流。第二个名为Depthaffnet,结合了深度图和仿射形状估算的信息,以生成不同图像分区的不同整体构图仿射图。Denseaffnet比最先进的速度快,并且在通用场景上更准确。Depthaffnet在包含大平面的场景上与最先进的状态相提并论。评估是在3个公共数据集上执行的-EVD数据集,强烈的观点更改数据集和IMC光仪数据集。
translated by 谷歌翻译
基于模板的鉴别性跟踪器是目前主导的跟踪范例由于其稳健性,但不限于边界框跟踪和有限的转换模型,这降低了它们的本地化准确性。我们提出了一个判别的单次分割跟踪器 - D3S2,其缩小了视觉对象跟踪和视频对象分段之间的差距。单次网络应用两个具有互补的几何属性的目标模型,一个不变的变换,包括非刚性变形,另一个假设刚性对象同时实现强大的在线目标分段。通过解耦对象和特征比例估计,进一步提高了整体跟踪可靠性。没有每数据集FineTuning,并且仅用于分段作为主要输出,D3S2胜过最近的短期跟踪基准Vot2020上的所有已发布的跟踪器,并非常接近GOT-10K上的最先进的跟踪器, TrackingNet,OTB100和Lasot。 D3S2优于视频对象分段基准上的前导分割跟踪器SIAMMASK,并与顶部视频对象分段算法进行操作。
translated by 谷歌翻译
We propose the fully differentiable $\nabla$-RANSAC.It predicts the inlier probabilities of the input data points, exploits the predictions in a guided sampler, and estimates the model parameters (e.g., fundamental matrix) and its quality while propagating the gradients through the entire procedure. The random sampler in $\nabla$-RANSAC is based on a clever re-parametrization strategy, i.e.\ the Gumbel Softmax sampler, that allows propagating the gradients directly into the subsequent differentiable minimal solver. The model quality function marginalizes over the scores from all models estimated within $\nabla$-RANSAC to guide the network learning accurate and useful probabilities.$\nabla$-RANSAC is the first to unlock the end-to-end training of geometric estimation pipelines, containing feature detection, matching and RANSAC-like randomized robust estimation. As a proof of its potential, we train $\nabla$-RANSAC together with LoFTR, i.e. a recent detector-free feature matcher, to find reliable correspondences in an end-to-end manner. We test $\nabla$-RANSAC on a number of real-world datasets on fundamental and essential matrix estimation. It is superior to the state-of-the-art in terms of accuracy while being among the fastest methods. The code and trained models will be made public.
translated by 谷歌翻译
The short-term prediction of precipitation is critical in many areas of life. Recently, a large body of work was devoted to forecasting radar reflectivity images. The radar images are available only in areas with ground weather radars. Thus, we aim to predict high-resolution precipitation from lower-resolution satellite radiance images. A neural network called WeatherFusionNet is employed to predict severe rain up to eight hours in advance. WeatherFusionNet is a U-Net architecture that fuses three different ways to process the satellite data; predicting future satellite frames, extracting rain information from the current frames, and using the input sequence directly. Using the presented method, we achieved 1st place in the NeurIPS 2022 Weather4Cast Core challenge. The code and trained parameters are available at \url{https://github.com/Datalab-FIT-CTU/weather4cast-2022}.
translated by 谷歌翻译
本文解决了解释黑框回归模型异常预测的任务。当使用黑框模型(例如从许多传感器测量值中预测能源消耗的一个模型)时,我们通常会有某些观察到的样品可能会显着偏离其预测的情况。这可能是由于亚最佳黑盒模型,或仅仅​​是因为这些样品是异常值。无论哪种情况,理想情况下都希望计算``责任分数'',以指示输入变量负责异常输出的程度。在这项工作中,我们将此任务形式化为一个统计逆问题:给定模型偏离预期值,推断每个输入变量的责任分数。我们提出了一种称为似然补偿(LC)的新方法,该方法基于可能性原理,并计算对每个输入变量的校正。据我们所知,这是第一个计算实际有价值异常模型偏差的责任分数的原则性框架。我们将方法应用于现实世界中的建筑能源预测任务,并根据专家反馈确认其实用性。
translated by 谷歌翻译
我们提出了HRF-NET,这是一种基于整体辐射场的新型视图合成方法,该方法使用一组稀疏输入来呈现新视图。最近的概括视图合成方法还利用了光辉场,但渲染速度不是实时的。现有的方法可以有效地训练和呈现新颖的观点,但它们无法概括地看不到场景。我们的方法解决了用于概括视图合成的实时渲染问题,并由两个主要阶段组成:整体辐射场预测指标和基于卷积的神经渲染器。该架构不仅基于隐式神经场的一致场景几何形状,而且还可以使用单个GPU有效地呈现新视图。我们首先在DTU数据集的多个3D场景上训练HRF-NET,并且网络只能仅使用光度损耗就看不见的真实和合成数据产生合理的新视图。此外,我们的方法可以利用单个场景的密集参考图像集来产生准确的新颖视图,而无需依赖其他明确表示,并且仍然保持了预训练模型的高速渲染。实验结果表明,HRF-NET优于各种合成和真实数据集的最先进的神经渲染方法。
translated by 谷歌翻译
我们研究了在紧邻人类机器人相互作用的背景下,最先进的人关键点探测器的性能。在这种情况下的检测是具体的,因为只有手和躯干等身体部位的子集在视野中。特别是(i)我们从近距离图像的角度调查了具有人类姿势注释的现有数据集,并准备并使公开可用的新人(HICP)数据集; (ii)我们在此数据集上进行定量和定性比较人类全身2D关键点检测方法(openpose,mmpose,onphapose,detectron2); (iii)由于对手指的准确检测对于使用交接的应用至关重要,因此我们评估了介质手工检测器的性能; (iv)我们在头部上带有RGB-D摄像头的人形机器人上部署算法,并在3D Human KeyPoint检测中评估性能。运动捕获系统用作参考。在紧邻近端的最佳性能全身关键点探测器是mmpose和字母,但两者都难以检测手指。因此,我们提出了在单个框架中为人体和手介载体的mmpose或字母组合的组合,提供了最准确,最强大的检测。我们还分析了单个探测器的故障模式 - 例如,图像中人的头部缺失在多大程度上降低了性能。最后,我们在一个场景中演示了框架,其中类人类机器人与人相互作用的人类机器人使用检测到的3D关键点进行全身避免动作。
translated by 谷歌翻译
深度强化学习(DRL)的最新进步通过允许自动控制器设计促进了机器人技术。自动控制器设计是设计群体机器人系统的关键方法,与单个机器人系统相比,它需要更复杂的控制器来领导所需的集体行为。尽管基于DRL的控制器设计方法显示出其有效性,但对中央培训服务器的依赖是在机器人服务器通信不稳定或有限的现实环境中的关键问题。我们提出了一种新型联邦学习(FL)的DRL培训策略(FLDDPG),以用于群体机器人应用。通过在有限的通信带宽方案下与基线策略进行比较,可以证明,FLDDPG方法导致更高的鲁棒性和泛化能力进入不同的环境和真正的机器人,而基线策略则遭受了通信带宽的限制。该结果表明,所提出的方法可以使在通信带宽有限的环境中运行的群体机器人系统受益,例如在高辐射,水下或地下环境中。
translated by 谷歌翻译
维数减少方法发现了巨大的应用程序作为不同科学领域的可视化工具。虽然存在许多不同的方法,但它们的性能通常不足以提供对许多当代数据集的快速深入了解,并且无监督的使用方式可防止用户利用数据集探​​索和微调可视化质量的细节方法。我们呈现开花,一种高性能半监督维度减少软件,用于具有数百万个单独的数据点的高维数据集的交互式用户可信可视化。 Blossom在GPU加速实施的EMBEDSOM算法的实现上,由几个基于地标的算法补充,用于将无监督模型学习算法与用户监督联系起来。我们展示了开花在现实数据集上的应用,在那里它有助于产生高质量的可视化,该可视化包含用户指定的布局并专注于某些功能。我们认为,半监督的维度减少将改善单细胞细胞谱系等科学领域的数据可视化可能性,并为数据集勘探和注释提供了新的方向的快速有效的基础方法。
translated by 谷歌翻译
我们呈现恐惧,新颖,快速,高效,准确,强大的暹罗视觉跟踪器。我们介绍了对象模型适配的架构块,称为双模板表示,以及像素 - 明智的融合块,以实现模型的额外灵活性和效率。双模板模块仅包含单个学习参数的时间信息,而像素-Wise融合块与标准相关模块相比,像素-Wise融合块对具有较少参数的判别特征进行了更多的辨别特征。通过用新型模块插入复杂的骨干,恐惧-M和恐惧-L跟踪器在既准确性和效率的几个学术基准上超过大多数暹粒例子。使用轻质骨干,优化的版本恐惧-XS提供了超过10倍的跟踪跟踪,而不是当前暹罗跟踪器,同时保持最先进的结果。 GEAF-XS跟踪器比LightTrack [62]更小2.4倍,比LightTrack [62]更高。此外,我们通过在能量消耗和执行速度上引入基准来扩展模型效率的定义。源代码,预先训练的模型和评估协议将根据要求提供
translated by 谷歌翻译